爬虫 python

[爬虫] scrapy爬虫框架上手

这是一篇抛弃selenium的练手项目

Posted by Leung ZhengHua on 2018-04-17

本文总点击量次

如果你是第一次阅读本文，你可能会对以下扫盲贴感兴趣：
scrapy官方文档
崔庆才|静觅的《小白进阶之Scrapy第一篇》
scrapy爬取知名技术文章网站(1)
Python3网络爬虫(十二)：初识Scrapy之再续火影情缘

你可以还会关心以下的链接：
Python网络爬虫（一）- 入门基础
 使用scrapy爬取妹子图（一）
教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神

还有我们常用网站也有壮士已经研究过了：
资源整理 | 32个Python爬虫项目让你一次吃到撑！

现在很多关于网络爬虫的教程了，旧时王谢堂前燕，如今飞入寻常百姓家。换个角度看，一代比一代的要求更高，以前零几年的时候，会一点python就已经是传说中的人物了，而今只要大学毕业就会接触过python，连爬虫这个东西都已经不算黑科技了。其实如果有了selenium，可以模仿

一个开始

引擎：hello, spider，你要处理哪一下网站？
spider：老大要我处理xx.com
引擎：你把第一个需要处理的URL给我吧。
spider：给你，这是第一个url xxooxx.com
引擎：hello,调度器，我这有个request 请求你帮我排列里下。
调度器：好的，正在帮你处理，请稍。
引擎：Hi，调度器，把你处理好的request 请求给我下。
调度器：给你，这是我处理好的request
引擎：Hi，下载器材，你按照老大给的“下载中间件”的模板，下载这个request请求的数据。
下载器：好的！在下载中……，好了，给你这是下载好的东西。
引擎：Hi，spider，这是下载好的东西。
spider：好的，我按照老大给的模板整理好，出个“Item”表。
spider：hello, 引擎，我这有新任务。。。。。。。。。。。。。。

↑
无以生计，卖文苟延